Multimodal Dance Recognition
Video content analysis is still an emerging technology, and the majority of work in this area extends from the still image domain. Dance videos are especially difficult to analyse and recognise as the performed human actions are highly dynamic. In this work, we introduce a multimodal approach for dance video recognition. Our proposed method combines visual and audio information, by fusing their representations, to improve classification accuracy. For the visual part, we focus on motion representation, as it is the key factor in distinguishing dance styles. For audio representation, we put the emphasis on capturing long-term dependencies, such as tempo, which is a crucial dance discriminator. Finally, we fuse two distinct modalities using a late fusion approach. We compare our model with corresponding unimodal approaches, by giving exhaustive evaluation on the Let’s Dance dataset. Our method yields significantly better results than each single-modality approach. Results presented in this work not only demonstrate the strength of integrating complementary sources of information in the recognition task, but also indicate the potential of applying multimodal approaches within specific research areas.
動画コンテンツ解析はまだ新しい技術であり、この分野での作業の大部分は静止画像の領域から始まっています。特にダンスビデオは、人間の動作が非常にダイナミックであるため、解析と認識が難しい。本研究では、ダンスビデオ認識のためのマルチモーダルアプローチを紹介する。提案手法では、視覚情報と音声情報を融合させることで、分類精度を向上させる。視覚情報では、ダンススタイルを識別するための重要な要素である動きの表現を重視しています。音声表現では、ダンスを識別する重要な要素であるテンポなどの長期的な依存性を捉えることに重点を置いています。最後に、2つの異なるモダリティをレイトフュージョンアプローチで融合させる。Let's Danceのデータセットを用いて網羅的な評価を行い、対応するユニモーダル・アプローチと比較する。その結果、我々の手法は各単一モダリティのアプローチよりも有意に優れた結果を得ることができた。本研究で示された結果は、認識タスクにおける補完的な情報源の統合の強さを示すだけでなく、特定の研究分野においてマルチモーダルアプローチを適用できる可能性を示している。
Warsaw University of Technology, Poland
Warsaw University of Technology, Poland